Unix 数据工具
我们将重点学习如何使用核心 Unix 工具来操作和探索纯文本数据格式。生物信息学中的许多格式都是以字符分隔的简单表格纯文本文件。生物信息学中最常用的纯文本文件格式是制表符分隔格式。这并非偶然:大多数 Unix 工具(如 cut 和 awk)默认将制表符作为分隔符。由于使用 Unix 工具处理这些文件非常方便,生物信息学逐渐倾向于使用制表符分隔格式。制表符分隔的文件格式也很容易用 Python 和 Perl 等脚本语言进行解析,并很容易加载到 R 中
检查数据的头部与尾部
使用 head 来检查头部:
bash
% head sequence_01.fasta
>sequence_1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE可以使用 -n 来定义检查头部的行数:
bash
% head -n 3 sequence_01.fasta
>sequence_1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA使用 tail 来检查尾部,同样适用 -n 来控制显示的行数:
bash
% tail -n 3 sequence_01.fasta
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE同时 tail 还提供了自定义从哪一行开始,使用 +x,此时 tail 就会从 x 行开始读取
bash
% tail -n +3 sequence_01.fasta
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDEless 也是极为强大的文件查看工具:
bash
less [选项] 文件名-N:显示行号-i:忽略搜索时的大小写-F:如果文件内容少于一屏就自动退出-X:退出时不清理屏幕-S:截断长行而不是换行显示
使用 less 和使用 vim 是差不多的,会进入一个交互式终端:

常用操作命令:
空格键或f:向下翻一页b:向上翻一页Enter或e:向下翻一行y:向上翻一行d:向下翻半页u:向上翻半页g:跳到文件开头G:跳到文件末尾50g:跳到第50行50%:跳到文件50%的位置v:使用默认编辑器编辑当前文件h:显示帮助q:退出 less
bash
less file1 file2 # 查看多个文件
ls -l | less # 查看命令输出
less file.gz # 查看压缩文件
less -p "search_term" filename # 高亮搜索内容